查看原文
其他

综述:全新视角回顾基于预训练语言模型的稠密检索

王禹淏 RUC AI Box 2023-08-04

© 作者|王禹淏
机构|中国人民大学高瓴人工智能学院

本篇综述“Dense Text Retrieval based on Pretrained Language Models: A Survey”由中国人民大学和百度合作完成。文章也同步发布在AI Box知乎专栏(知乎搜索 AI Box专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨! 

支持这项研究,作者团队创建了一个参考网站,包括稠密检索研究的相关资源:(例如:论文,数据集和代码资源库),链接: 
https://github.com/RUCAIBox/DenseRetrieval .

Fig: 参考网站目录截图.

文章链接:https://arxiv.org/abs/2211.14876.
 论文概要

Fig: The illustration for the overall pipeline of an information retrieval system.

本篇综述从架构(architecture)、训练(training)、索引(indexing)和整合(integration)四个主要方面组织了相关研究,系统地回顾了基于预训练语言模型(PLM)的稠密检索的最新进展,文章还讨论了其在下游任务的应用,以及部分进阶主题。本篇综述尽量完整地涵盖了这一题目下的近期工作,引用了300余篇经典及最新的文献,为相关方向的研究者了解此领域提供全面、实用的参考。

 论文简介

近四年来,大量基于PLM的稠密检索研究被提出,在很大程度上提高了现有基准数据集的性能标准。首先,PLM出色的文本表示能力使文本检索系统能够回答通过简单的词汇匹配无法解决的困难查询。其次,大规模有标注的检索数据集(例如MS MARCO和Natural Questions)的出现使得训练(或微调)高效的文本检索PLM变得可行。

Table: A detailed list of different dense retrieval methods in the literature with detailed configurations.

考虑到稠密检索近年来取得的重要进展,本研究旨在对现有的文本检索方法进行系统回顾。特别是基于PLM的稠密检索方法。本研究以第一阶段的检索(召回)为核心,广泛讨论构建稠密检索系统的四个相关方面,包括:

  • 架构(architecture,如何设计稠密检索器的网络架构)

  • 训练(training,如何使用特殊的训练策略优化稠密检索器)

  • 索引(indexing,如何设计高效的数据结构索引和检索稠密向量)

  • 集成(integration,如何集成和优化一个完整的检索pipeline)


研究广泛讨论了构建稠密检索系统的各种有用的主题或技术,旨在为研究者和工程师提供这一研究方向的全面、实用的参考。

与以往研究不同的是,本篇综述的研究有以下三个新特点:

  • 首先,研究专注于基于PLM的稠密检索研究,并将相关研究从架构、训练、索引和集成四个方面进行了新的分类。

  • 其次,研究特别关注了稠密检索的实用技术,广泛讨论了训练检索模型、建立稠密索引和优化检索pipeline的方法。

  • 第三,研究介绍了稠密检索的最新进展,并详细讨论了几个新兴的研究主题(例如,基于模型的检索和表示增强的预训练)。


 参考文献

[1] Zhao, Wayne Xin, et al. "Dense Text Retrieval based on Pretrained Language Models: A Survey." arXiv preprint arXiv:2211.14876 (2022).


一文速览知识增强的对话推荐系统



Long document summarization: 一文速览长文本摘要进展


100篇论文纵览语言模型推理能力


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存